本文研究了如何使用大型语言模型 (LLM) 从全篇材料科学研究论文中提取聚合物纳米复合材料 (PNC) 的样本列表。挑战在于 PNC 样本的复杂性,它们在整个文本中散布着许多属性。注释 PNC 上的详细信息的复杂性限制了数据的可用性,由于创建全面的命名实体跨度注释的挑战,传统的文档级关系提取技术变得不切实际。为了解决这个问题,我们为这项任务引入了一个新的基准和评估技术,并以零样本方式探索了不同的提示策略。我们还结合了自一致性来提高性能。我们的研究结果表明,即使是先进的 LLM 也很难从一篇文章中提取所有样本。最后,我们分析了在这个过程中遇到的错误,将它们分为三个主要挑战,并讨论了未来研究中克服这些挑战的潜在策略。
主要关键词
![arXiv:2403.00260v1 [cs.CL] 2024 年 3 月 1 日PDF文件第1页](/bimg/2/2181b16a62a5d2a168937695b7cc00c0a01bfc23.webp)
![arXiv:2403.00260v1 [cs.CL] 2024 年 3 月 1 日PDF文件第2页](/bimg/e/ea1ccf6681e747fe70161de0d2880f96c0ec6d00.webp)
![arXiv:2403.00260v1 [cs.CL] 2024 年 3 月 1 日PDF文件第3页](/bimg/9/9fe930307e341689d50d2c422a19428706b1999b.webp)
![arXiv:2403.00260v1 [cs.CL] 2024 年 3 月 1 日PDF文件第4页](/bimg/8/848d2df9182957a9cb6c6b9f173fd068d233ff31.webp)
![arXiv:2403.00260v1 [cs.CL] 2024 年 3 月 1 日PDF文件第5页](/bimg/6/683b1e48cc5e523fab1d00a735450c52187e27af.webp)
